অ্যাপাচি টিকা (Apache Tika) OCR (Optical Character Recognition) ইন্টিগ্রেশনের মাধ্যমে ইমেজ ও স্ক্যান করা ডকুমেন্ট থেকে টেক্সট এক্সট্রাক্ট করতে সক্ষম। সাধারণত Tesseract OCR ইঞ্জিন ব্যবহার করে Tika OCR ফাংশনালিটি পরিচালনা করে। এটি বিশেষ করে PDF, JPEG, PNG এর মতো ইমেজ-ভিত্তিক ফাইলগুলো থেকে লেখা পড়তে ব্যবহার করা হয়।
OCR কীভাবে কাজ করে?
Optical Character Recognition (OCR) হলো এমন একটি প্রযুক্তি যা ইমেজে থাকা টেক্সটকে ডিজিটাল টেক্সটে রূপান্তর করে। এটি ডকুমেন্ট স্ক্যানিং, ইমেজ প্রসেসিং এবং স্বয়ংক্রিয় ডেটা রিডিং কাজে ব্যবহৃত হয়।
Tika OCR সাধারণত Tika Parsers এর সাথে যুক্ত হয় এবং তাতে Tesseract OCR ইঞ্জিন কাজ করে।
Tika OCR এর জন্য প্রয়োজনীয় সেটআপ
১. Tesseract OCR ইন্সটল করা
প্রথমে আপনার সিস্টেমে Tesseract ইন্সটল করতে হবে।
- Windows:
Tesseract OCR Installer ডাউনলোড ও ইন্সটল করুন। - Linux (Ubuntu):
sudo apt-get update
sudo apt-get install tesseract-ocr
- macOS:
brew install tesseract
২. Tika OCR ডিপেনডেন্সি অ্যাড করা
Maven ব্যবহার করলে নিম্নোক্ত ডিপেনডেন্সি অ্যাড করতে হবে:
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers</artifactId>
<version>2.9.0</version>
</dependency>
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-ocr</artifactId>
<version>2.9.0</version>
</dependency>
Tika এবং Tesseract OCR ব্যবহার করে কোড উদাহরণ
নিচের উদাহরণে দেখানো হয়েছে কিভাবে একটি ইমেজ বা স্ক্যান করা PDF থেকে টেক্সট এক্সট্রাক্ট করা যায়:
import org.apache.tika.Tika;
import org.apache.tika.config.TikaConfig;
import org.apache.tika.parser.ocr.TesseractOCRConfig;
import org.apache.tika.parser.pdf.PDFParserConfig;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import java.io.FileInputStream;
import java.io.InputStream;
public class TikaOCRExample {
public static void main(String[] args) throws Exception {
// Tesseract OCR কনফিগারেশন সেটআপ
TesseractOCRConfig ocrConfig = new TesseractOCRConfig();
ocrConfig.setLanguage("eng"); // OCR ভাষা সেট (Tesseract ইন্সটল অনুযায়ী)
ocrConfig.setTesseractPath("/usr/bin/tesseract"); // Tesseract এর লোকেশন
// Tika কনফিগার সেটআপ
TikaConfig config = new TikaConfig();
ContentHandler handler = new BodyContentHandler(-1);
// ইনপুট ফাইল পড়া
try (InputStream stream = new FileInputStream("image_or_scanned_doc.pdf")) {
Tika tika = new Tika();
String text = tika.parseToString(stream);
System.out.println("Extracted Text: " + text);
}
}
}
ব্যাখ্যা
১. TesseractOCRConfig: এটি Tesseract OCR এর কনফিগারেশন সেটিংস পরিচালনা করে যেমন ভাষা, পাথ।
২. parseToString(): Tika এর মাধ্যমে ডকুমেন্ট প্রসেস করে এবং টেক্সট রিটার্ন করে।
৩. OCR ইন্টিগ্রেশন: Tika Parser স্বয়ংক্রিয়ভাবে Tesseract OCR ব্যবহার করে টেক্সট এক্সট্রাক্ট করে।
Tika OCR এর সুবিধা
- ইমেজ থেকে টেক্সট রিডিং: স্ক্যান করা ডকুমেন্ট, ছবিতে থাকা লেখা সহজেই টেক্সটে রূপান্তর করা যায়।
- PDF OCR সাপোর্ট: PDF ফাইলের স্ক্যান করা পৃষ্ঠাগুলো OCR ব্যবহার করে প্রসেস করা যায়।
- ভাষা সাপোর্ট: Tesseract OCR বিভিন্ন ভাষা সাপোর্ট করে, যা Tika এর মাধ্যমে কনফিগার করা যায়।
- ইন্টিগ্রেটেড প্রসেসিং: OCR এবং অন্যান্য ফাইল প্রসেসিং একত্রে করা যায়।
সীমাবদ্ধতা
- মেমোরি এবং সময়: বড় ফাইল প্রসেস করতে তুলনামূলক বেশি সময় এবং মেমোরি প্রয়োজন।
- কুয়ালিটি নির্ভরতা: স্ক্যানের বা ইমেজের মান (Resolution) ভালো না হলে OCR পারফরম্যান্স কমে যেতে পারে।
Tika OCR এবং Tesseract এর মাধ্যমে ফাইল এবং ইমেজ প্রসেসিং অত্যন্ত কার্যকর ও স্বয়ংক্রিয় হয়ে ওঠে। এটি ডেটা এক্সট্রাকশন এবং ডকুমেন্ট ম্যানেজমেন্টের জন্য শক্তিশালী সমাধান।
OCR এর সংজ্ঞা
OCR (Optical Character Recognition) হল একটি প্রযুক্তি যা ইমেজ বা স্ক্যান করা ডকুমেন্ট থেকে টেক্সট সনাক্ত এবং এক্সট্রাক্ট করে। সাধারণত স্ক্যান করা পিডিএফ (PDF), ফটোগ্রাফ, বা কোনো ইমেজ ফাইল থেকে ছাপা বা হস্তলিখিত টেক্সট ডিজিটাল ফরম্যাটে রূপান্তর করতে OCR ব্যবহার করা হয়।
OCR কীভাবে কাজ করে?
OCR প্রযুক্তি একটি ইমেজ ফাইলকে পিক্সেল ভিত্তিক ডেটা থেকে পাঠযোগ্য টেক্সট এ রূপান্তরিত করে। প্রাথমিকভাবে, এটি তিনটি ধাপে কাজ করে:
১. ইমেজ প্রি-প্রসেসিং (Image Pre-processing)
ইমেজ ক্লিনিং, কালার অপ্টিমাইজেশন এবং কনট্রাস্ট বৃদ্ধি করে ইমেজকে আরও পাঠযোগ্য করা হয়।
২. টেক্সট ডিটেকশন (Text Detection)
ইমেজের ভিতরে কোথায় কোথায় টেক্সট রয়েছে তা সনাক্ত করা হয়।
৩. অক্ষর সনাক্তকরণ (Character Recognition)
প্রতিটি অক্ষর এবং শব্দ সনাক্ত করে ডিজিটাল টেক্সট হিসেবে রূপান্তর করা হয়।
অ্যাপাচি টিকা এবং OCR
অ্যাপাচি টিকা (Apache Tika) OCR প্রযুক্তির সাহায্যে স্ক্যান করা পিডিএফ, ইমেজ, এবং অন্যান্য নন-টেক্সট ফাইল থেকে টেক্সট এক্সট্রাক্ট করতে পারে। এটি মূলত Tesseract OCR ইঞ্জিনের সাথে ইন্টিগ্রেটেড হয়ে কাজ করে।
উদাহরণ: Apache Tika দিয়ে OCR ব্যবহার
import org.apache.tika.Tika;
import org.apache.tika.parser.ocr.TesseractOCRConfig;
import org.apache.tika.parser.pdf.PDFParser;
import java.io.File;
public class OCRExample {
public static void main(String[] args) throws Exception {
Tika tika = new Tika();
File file = new File("scanned.pdf");
// OCR এর মাধ্যমে টেক্সট এক্সট্রাক্ট করা
String extractedText = tika.parseToString(file);
System.out.println("Extracted Text: " + extractedText);
}
}
OCR এর প্রয়োজনীয়তা
১. পাঠযোগ্য ডেটার ডিজিটালাইজেশন
স্ক্যান করা কাগজপত্র বা ফটোগ্রাফ থেকে তথ্য সংগ্রহ করে সহজে ডিজিটাল ডেটাবেসে সংরক্ষণ করা যায়।
২. ডেটা অনুসন্ধান ও বিশ্লেষণ
OCR প্রযুক্তির মাধ্যমে প্রাপ্ত টেক্সট সহজে সার্চ করা এবং বিশ্লেষণ করা সম্ভব।
৩. স্বয়ংক্রিয় ডেটা প্রসেসিং
হাতে ডেটা টাইপ করার পরিবর্তে স্বয়ংক্রিয়ভাবে তথ্য সংগ্রহ করতে OCR ব্যবহার করা হয়।
৪. সংরক্ষণ ও পুনরুদ্ধার
পুরাতন নথি, বই বা অন্য যেকোনো কাগজপত্রকে ডিজিটাল আর্কাইভে সংরক্ষণ করা যায়।
৫. অ্যাক্সেসিবিলিটি (Accessibility)
ভিজুয়ালি ইম্পেয়ার্ড (Visually Impaired) ব্যক্তিদের জন্য টেক্সট রিডার টুলের মাধ্যমে সহজে তথ্য পাঠযোগ্য করা যায়।
OCR এর ব্যবহার ক্ষেত্র
- স্ক্যান করা ডকুমেন্ট প্রসেসিং
- লাইব্রেরি ও আর্কাইভ ডিজিটালাইজেশন
- ব্যাংকিং ও ফিন্যান্সে চেক প্রসেসিং
- লিগ্যাল ডকুমেন্ট প্রসেসিং
- অনলাইন কনটেন্ট সার্চ ও ম্যানেজমেন্ট
সারাংশ
OCR প্রযুক্তি হল ইমেজ এবং স্ক্যান করা ডকুমেন্ট থেকে টেক্সট এক্সট্রাক্ট করার একটি কার্যকর উপায়। অ্যাপাচি টিকা এর OCR সমর্থন এর মাধ্যমে নন-টেক্সট ফরম্যাট থেকেও সহজে তথ্য এক্সট্রাক্ট এবং প্রসেস করা যায়। এটি ডেটা ডিজিটালাইজেশন এবং অ্যানালাইসিসের জন্য একটি অপরিহার্য টুল।
অ্যাপাচি টিকা (Apache Tika) এবং Tesseract OCR এর সমন্বয়ে বিভিন্ন ইমেজ ও পিডিএফ ফাইল থেকে টেক্সট এক্সট্রাক্ট (Text Extraction) করা সম্ভব। Tesseract হল একটি ওপেন-সোর্স OCR (Optical Character Recognition) টুল, যা ইমেজের মধ্যে থাকা লেখা শনাক্ত করে টেক্সট আকারে ফিরিয়ে দেয়। টিকা এবং Tesseract একসাথে কাজ করলে স্ক্যানড পিডিএফ এবং ইমেজ থেকে টেক্সট রিড করা সহজ হয়।
Tesseract OCR সম্পর্কে সংক্ষিপ্ত পরিচিতি
Tesseract হল একটি জনপ্রিয় OCR ইঞ্জিন, যা গুগল দ্বারা রক্ষণাবেক্ষণ করা হয়। এটি:
- ইমেজ-ভিত্তিক টেক্সট রিডিং এর জন্য ব্যবহার হয়।
- বহু ভাষা সাপোর্ট করে।
- বিনামূল্যে এবং ওপেন-সোর্স।
অ্যাপাচি টিকা এবং Tesseract OCR ইন্টিগ্রেশন
১. প্রয়োজনীয় টুল ইন্সটলেশন
অ্যাপাচি টিকা ইন্সটলেশন
- Apache Tika ডাউনলোড করুন।
- Tika-app.jar ফাইল রান করার জন্য Java Runtime Environment (JRE) ইন্সটল থাকতে হবে।
Tesseract OCR ইন্সটলেশন
Linux:
sudo apt-get install tesseract-ocr
sudo apt-get install tesseract-ocr-eng
Windows:
- Tesseract OCR ডাউনলোড ও ইন্সটল করুন।
- ইন্সটলেশন ডিরেক্টরিটি সিস্টেম PATH এ যুক্ত করুন।
২. কনফিগারেশন
Apache Tika স্বয়ংক্রিয়ভাবে Tesseract OCR সাপোর্ট করে যদি Tesseract সঠিকভাবে ইন্সটল থাকে। টিকা OCR কনফিগারেশন ফাইল (tika-config.xml) এর মাধ্যমে Tesseract এর সাথে কাজ করতে পারে।
উদাহরণ tika-config.xml:
<?xml version="1.0" encoding="UTF-8"?>
<tika-config>
<parser class="org.apache.tika.parser.ocr.TesseractOCRParser">
<params>
<param name="tesseractPath" type="string">/usr/bin/tesseract</param>
<param name="language" type="string">eng</param>
<param name="outputType" type="string">txt</param>
</params>
</parser>
</tika-config>
তথ্য:
tesseractPath: Tesseract এর ইনস্টল পাথ।language: OCR এর ভাষা (যেমনengইংরেজি)।
৩. রানিং Apache Tika এবং Tesseract OCR
টিকা OCR পার্সার ব্যবহার করে ইমেজ বা স্ক্যানড পিডিএফ থেকে টেক্সট এক্সট্রাক্ট করতে কমান্ডটি রান করুন:
java -jar tika-app-x.x.jar -t --config=tika-config.xml input-image.pdf
ব্যাখ্যা:
tika-app-x.x.jar: Apache Tika অ্যাপ ফাইল।--config: কাস্টম কনফিগারেশন ফাইল।input-image.pdf: OCR প্রক্রিয়ার জন্য ইনপুট ফাইল।
অ্যাপাচি টিকা ও Tesseract OCR এর সুবিধা
- স্ক্যানড ডকুমেন্ট সাপোর্ট: স্ক্যানড পিডিএফ এবং ইমেজ থেকে টেক্সট এক্সট্রাক্ট করা সহজ।
- বহুভাষা সমর্থন: Tesseract বহু ভাষায় কাজ করতে পারে।
- মাল্টিপার্পাস প্রসেসিং: ইমেজ ও পিডিএফের পাশাপাশি অন্যান্য ফাইল থেকে ডেটা বিশ্লেষণ করা যায়।
- ফ্লেক্সিবল কনফিগারেশন: টিকার কনফিগারেশন পরিবর্তন করে কাজকে সহজ করা যায়।
সারাংশ
অ্যাপাচি টিকা এবং Tesseract OCR এর সমন্বয় একটি শক্তিশালী টুল তৈরি করে, যা স্ক্যানড ডকুমেন্ট, ইমেজ এবং পিডিএফ থেকে টেক্সট এক্সট্রাক্ট করতে সক্ষম। এই ইন্টিগ্রেশন বড় স্কেল ডেটা প্রসেসিং এবং ডকুমেন্ট ম্যানেজমেন্টের ক্ষেত্রে গুরুত্বপূর্ণ ভূমিকা পালন করে।
অ্যাপাচি টিকা (Apache Tika) একটি শক্তিশালী টুল যা বিভিন্ন ফরম্যাটের ডকুমেন্ট এবং মিডিয়া ফাইল থেকে টেক্সট ও মেটাডাটা এক্সট্র্যাক্ট করতে পারে। এর মধ্যে একটি উল্লেখযোগ্য ফিচার হলো ইমেজ থেকে টেক্সট এক্সট্র্যাকশন এবং পিডিএফ OCR (Optical Character Recognition)।
ইমেজ থেকে টেক্সট এক্সট্র্যাকশন
অ্যাপাচি টিকা Tesseract OCR ইঞ্জিন ব্যবহার করে ইমেজ ফাইল (যেমন PNG, JPEG) থেকে টেক্সট এক্সট্র্যাক্ট করতে সক্ষম। Tesseract একটি ওপেন সোর্স OCR টুল যা ইমেজে থাকা টেক্সটকে ডিজিটাল ফর্ম্যাটে রূপান্তর করতে ব্যবহার করা হয়।
প্রয়োজনীয় ডিপেনডেন্সি
টেক্সট এক্সট্র্যাকশন এবং OCR-এর জন্য Tika-parsers এবং Tesseract OCR-এর প্রয়োজন:
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers-standard-package</artifactId>
<version>2.x.x</version>
</dependency>
উদাহরণ: ইমেজ থেকে টেক্সট এক্সট্র্যাকশন (Java কোড)
import java.io.File;
import java.io.InputStream;
import org.apache.tika.Tika;
import org.apache.tika.parser.ocr.TesseractOCRConfig;
import org.apache.tika.parser.ocr.TesseractOCRParser;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
public class ImageToText {
public static void main(String[] args) {
try {
Tika tika = new Tika();
// OCR কনফিগারেশন
TesseractOCRConfig config = new TesseractOCRConfig();
config.setLanguage("eng"); // ভাষা সেট করা (ইংরেজি)
// ফাইল লোড করা
File file = new File("image.png");
InputStream inputstream = tika.getStream(file);
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
context.set(TesseractOCRConfig.class, config);
// Tesseract OCR Parser ব্যবহার করে প্রসেস করা
TesseractOCRParser parser = new TesseractOCRParser();
parser.parse(inputstream, handler, metadata, context);
// টেক্সট প্রিন্ট করা
System.out.println("Extracted Text: " + handler.toString());
} catch (Exception e) {
e.printStackTrace();
}
}
}
পিডিএফ OCR (Optical Character Recognition)
OCR প্রযুক্তির মাধ্যমে স্ক্যান করা পিডিএফ ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা যায়। Tika-পার্সার প্যাকেজ Tesseract OCR ইঞ্জিনকে ইন্টিগ্রেট করে, যার ফলে ইমেজ-ভিত্তিক পিডিএফ থেকেও টেক্সট বের করা সম্ভব।
পিডিএফ OCR-এর জন্য কনফিগারেশন
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers-standard-package</artifactId>
<version>2.x.x</version>
</dependency>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.x.x</version>
</dependency>
উদাহরণ: পিডিএফ থেকে টেক্সট এক্সট্র্যাকশন
import java.io.FileInputStream;
import java.io.InputStream;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.parser.ocr.TesseractOCRConfig;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
public class PDFWithOCR {
public static void main(String[] args) {
try {
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
// OCR কনফিগারেশন
TesseractOCRConfig config = new TesseractOCRConfig();
config.setLanguage("eng"); // ভাষা সেট করা
context.set(TesseractOCRConfig.class, config);
// পিডিএফ প্রসেস করা
InputStream stream = new FileInputStream("scanned.pdf");
PDFParser pdfParser = new PDFParser();
pdfParser.parse(stream, handler, metadata, context);
// টেক্সট প্রিন্ট করা
System.out.println("Extracted Text: " + handler.toString());
} catch (Exception e) {
e.printStackTrace();
}
}
}
অ্যাপাচি টিকা OCR-এর সুবিধা
- ইমেজ এবং পিডিএফ উভয়ের জন্য সাপোর্ট।
- টেক্সট এক্সট্র্যাকশন স্বয়ংক্রিয় এবং দ্রুত।
- ভাষা সাপোর্ট: বিভিন্ন ভাষার OCR প্রসেসিং সম্ভব।
সীমাবদ্ধতা
- ইমেজ বা স্ক্যানের গুণগত মান খারাপ হলে সঠিকভাবে টেক্সট বের করা কঠিন।
- বড় পিডিএফ ফাইল প্রসেসিংয়ে সময় বেশি লাগে।
সারাংশ:
অ্যাপাচি টিকা Tesseract OCR ব্যবহার করে ইমেজ এবং স্ক্যান করা পিডিএফ থেকে সহজে টেক্সট এক্সট্র্যাক্ট করতে পারে। এটি একটি শক্তিশালী টুল, যা ডেটা প্রসেসিং এবং ডকুমেন্ট অ্যানালাইসিসের ক্ষেত্রে কার্যকর ভূমিকা রাখে।
অ্যাপাচি টিকা (Apache Tika) একটি শক্তিশালী টুল যা টেক্সট এক্সট্রাকশনসহ OCR (Optical Character Recognition) প্রযুক্তির মাধ্যমে ইমেজ বা স্ক্যান করা ডকুমেন্ট থেকে টেক্সট রিড এবং প্রসেস করতে পারে। অ্যাপাচি টিকা Tesseract OCR ইঞ্জিনের সাহায্যে এই কাজটি সম্পন্ন করে।
OCR কি?
OCR (Optical Character Recognition) হলো এমন একটি প্রযুক্তি যা ইমেজ বা স্ক্যান করা ফাইল থেকে লেখাকে পড়ে এবং সেই টেক্সটকে ডিজিটাল ফরম্যাটে রূপান্তরিত করে।
অ্যাপাচি টিকার মাধ্যমে OCR কিভাবে কাজ করে?
অ্যাপাচি টিকা Tesseract OCR লাইব্রেরির ইন্টিগ্রেশন ব্যবহার করে OCR-এর মাধ্যমে ইমেজ ফাইল বা স্ক্যান করা পিডিএফ ফাইল থেকে টেক্সট এক্সট্রাক্ট করতে পারে।
প্রয়োজনীয় ডিপেন্ডেন্সি
OCR ফিচার ব্যবহারের জন্য অ্যাপাচি টিকা এবং Tesseract OCR ইনস্টল থাকতে হবে।
Tesseract OCR ইনস্টলেশন (Linux/Ubuntu):
sudo apt-get install tesseract-ocr
উদাহরণ: Tika এবং OCR
১. Tika CLI এর মাধ্যমে OCR ব্যবহার
ধরা যাক আপনার কাছে একটি স্ক্যান করা পিডিএফ বা ইমেজ ফাইল আছে (example.jpg)। অ্যাপাচি টিকা কমান্ড লাইন ইন্টারফেস (CLI) ব্যবহার করে টেক্সট এক্সট্রাক্ট করতে পারবেন।
কমান্ড:
java -jar tika-app-x.x.jar -t example.jpg
Output:
ফাইল থেকে টেক্সট এক্সট্রাক্ট হয়ে টার্মিনালে প্রদর্শিত হবে।
২. Java প্রোগ্রামে OCR ব্যবহার
OCR সাপোর্ট সহ অ্যাপাচি টিকা কোডের মাধ্যমে ইমেজ থেকে টেক্সট প্রসেস করা যায়।
Java কোড:
import org.apache.tika.Tika;
import org.apache.tika.parser.ocr.TesseractOCRConfig;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.ocr.TesseractOCRParser;
import org.apache.tika.metadata.Metadata;
import java.io.File;
import java.io.FileInputStream;
public class TikaOCRExample {
public static void main(String[] args) throws Exception {
// Tika এবং Tesseract OCR সেটআপ
Tika tika = new Tika();
TesseractOCRConfig config = new TesseractOCRConfig();
config.setLanguage("eng"); // ভাষা সেট করুন
ParseContext context = new ParseContext();
context.set(TesseractOCRConfig.class, config);
// ফাইল প্রসেসিং
File file = new File("example.jpg");
Metadata metadata = new Metadata();
FileInputStream inputStream = new FileInputStream(file);
String text = tika.parseToString(inputStream, metadata, context);
System.out.println("Extracted Text: " + text);
}
}
স্ক্যান করা পিডিএফ থেকে টেক্সট এক্সট্রাকশন
অ্যাপাচি টিকার মাধ্যমে স্ক্যান করা পিডিএফ থেকে টেক্সট এক্সট্রাক্ট করার জন্যও Tesseract OCR ব্যবহার করা হয়।
কমান্ড লাইন:
java -jar tika-app-x.x.jar -t scanned_document.pdf
Output:
টেক্সট স্ক্যান করা পিডিএফ থেকে এক্সট্রাক্ট হয়ে প্রিন্ট হবে।
Tika OCR কনফিগারেশন
OCR প্রসেস আরও কাস্টমাইজ করার জন্য TesseractOCRConfig ব্যবহার করা হয়।
প্রধান সেটিংস:
- Language: OCR এর ভাষা (ডিফল্ট
eng) - DPI: স্ক্যান করা ফাইলের রেজোলিউশন সেট করা
- Timeout: OCR প্রসেসিংয়ের সময়সীমা নির্ধারণ
Example:
config.setLanguage("ben"); // বাংলা OCR
config.setTimeout(120); // ২ মিনিট টাইমআউট
সুবিধা
- মাল্টি-ল্যাংগুয়েজ সাপোর্ট: Tesseract-এর মাধ্যমে অ্যাপাচি টিকা একাধিক ভাষায় OCR করতে পারে।
- ইমেজ এবং স্ক্যান পিডিএফ সাপোর্ট: ফরম্যাটের সীমাবদ্ধতা নেই।
- ইন্টিগ্রেশন সহজ: Java API এবং CLI উভয়ের মাধ্যমে ব্যবহারযোগ্য।
সারাংশ
অ্যাপাচি টিকা এবং Tesseract OCR-এর সমন্বয়ে স্ক্যান করা ডকুমেন্ট, ইমেজ বা পিডিএফ থেকে সহজে এবং কার্যকরীভাবে টেক্সট এক্সট্রাক্ট করা যায়। এটি ডেটা প্রসেসিং এবং ডকুমেন্ট ম্যানেজমেন্টের জন্য একটি অত্যন্ত কার্যকর সমাধান।
Read more